筆記目錄

Skip to content

簡單測試使用 WhisperDesktop 將語音轉成文字

TLDR

  • WhisperDesktop 是一款無需 Python 環境即可在 Windows 上運行 OpenAI Whisper 的離線工具。
  • 建議優先使用 ggml-medium.bin 模型,該模型在準確度與處理速度之間取得了最佳平衡。
  • 獨立顯卡使用者建議選用 ggml-medium.bin;內顯使用者建議日常使用 ggml-small.bin,重要內容則選用 ggml-medium.bin
  • 轉換效能與模型大小及硬體規格(VRAM)高度相關,ggml-large 模型在特定硬體上可能出現轉換失敗或輸出空白的問題。
  • 開發者已長期未更新 WhisperDesktop,建議改用維護更活躍且速度更快的 Subtitle Edit 整合 Faster-Whisper 方案。

WARNING

WhisperDesktop 開發者已許久未更新。目前建議改用 Subtitle Edit 整合 Faster-Whisper,維護相對活躍且速度更快。請參考:使用 Subtitle Edit 整合 Faster-Whisper 進行本地語音轉文字

軟體安裝與模型配置

WhisperDesktop 提供了圖形化介面,讓使用者無需建置 Python 環境即可運行 Whisper 模型。

  • 下載方式:前往 WhisperDesktop GitHub 的 Releases 頁面,下載 WhisperDesktop.zip
  • 模型下載:從 Huggingface Whisper 下載對應的 .bin 模型檔。
  • 模型選擇建議:
    • tiny / base:適合硬體資源極度受限的環境,但準確率較低。
    • small:內顯環境的日常使用基準。
    • medium:推薦模型,準確度與速度表現最為均衡。
    • large:準確度最高,但對 VRAM 需求大(約 10GB),且在部分硬體上可能發生轉換失敗。

效能與硬體需求分析

什麼情況下會遇到效能瓶頸?當處理長音訊檔案或使用過大的模型時,硬體規格(特別是 VRAM)將直接決定轉換速度與成功率。

測試數據對照

以下測試基於 5 分 16 秒的 mp3 檔案:

  • 獨立顯卡 (RTX 4070 Ti Super 16GB)
    • 使用 ggml-medium.bin:僅需 11 秒。
    • 使用 ggml-large-v3.bin:耗時 22 分 01 秒,且實測可能產生空白檔案。
  • 內顯 (i7-12700H)
    • 使用 ggml-tiny.bin:41 秒。
    • 使用 ggml-small.bin:4 分 19 秒。
    • 使用 ggml-medium.bin:13 分 5 秒。

使用建議與結論

針對不同硬體配置,建議採取以下策略:

  • 擁有獨立顯示卡者:直接選用 ggml-medium.bin 模型,可兼顧效率與品質。
  • 使用內顯或舊型顯示卡者:
    • 日常轉錄:建議使用 ggml-small.bin,因 ggml-tiny.bin 的準確率通常不足以應付一般需求。
    • 高精確度需求:可選用 ggml-medium.bin,並預留較長的處理時間。

異動歷程

  • 2025-03-24 初版文件建立。
  • 2026-01-31 新增推薦連結,引導至新版 Faster-Whisper 解決方案。